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@ Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache 

@ Die vorllagende Erflndung betrifft elne Vorrlchtung und 
ein Verfahren zur Behandlung von Sprachdaten aus ei- 
nem Gesprach zwischen elnem ersten menschlichen und 
einem Oder mehreren zweiten menschlichen Gesprachs- 
partnern und/oder einem Gesprachsannahmesystem 
Oder zwischen einem ersten menschlichen und einem 
Oder mehreren zweiten menschlichen Gesprachspart- 
nern, bei dem aus dem Gesprach Sprachdaten erzeugt 
werden, dadurch gekennzeichnet, 

- dass die Sprache des ersten Gesprachspartners automa- 
tisch erkannt wird, 

- dass die Sprachdaten ganz oder teilweise mittels eines 
automatischen Spracherkennungssystems analysiert und 
in Text umgewandelt werden. 
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Beschreibung 

[0001] Die vorliegende Erfindung betrifft ein Verfahren 
und ein elektronisches System zur automatischen Behand- 
lung von Sprachdaten aus einem Gesprach zwischen einem 5 

ersten menschlichen und einem oder mehreren zweiten 
menschlichen Gesprachspartnern und/oder einem Ge- 
sprachsannatimesystem oder zwisctien einem ersten 
menschlichen und einem oder mehreren zweiten menschli- 
chen Gesprachspartnern, bei dem aus dem Gesprach Sprach- 10 
daten erzeugt werden. 

[0002] Die automatische Spracherkennung ist seit gerau- 
mer Zeit aus der Praxis bekannt und wird zur maschinellen 
Umsetzung gesprochener Sprache in geschriebenen Text 
eingesetzt. 15 
[0003] Spracherkennungssysteme lassen sich nach der 
raumlichen-zeitlichen Verkniipfung von Sprachaufnahme 
und Sprachverarbeitung in zwei Griippen unterteilen. 

- "Qnline-Erkenner" sind Spracherkennungssysteme, 20 
die gesprochene AuBerungen unmittelbar in geschrie- 
benen Text umsetzen. Hierzu zahlen die meisten Biiro- 
diktiersysteme. 

- "Offline-Erkennungssysteme" fuhren eine zeitver- 
setzte Spracherkennung zu einer Diktataufzeichnung 25 
durch, die der Anwender beispielsweise mit einem di- 
gitalen Aufzeichnungsgerat angelegt hat. 

[0004] Die bislang aus dem Stand der Technik bekannten 
sprachverarbeitenden Systeme konnen keine sprachUchen 30 
Inhalte verstehen, d. h. es konnen nicht wie beim menschli- 
chen Sprachverstehen intelligente Hypothesen iiber das ge- 
sagte a priori gcbildct werden. Statt dessen wird der akusti- 
sche Erkcnnungsprozcss durch das Heranziehen von text- 
oder anwcndungsspezifischen Hypothesen unterstiitzt. Die 35 
folgenden Hypothesen bzw. Erkennungsmodi sind bislang 
verbreitet: 

- die Diktat- bzw. Vokabular-Erkennung bedient sich 
einer Verkniipfung von domanenspezifischer Wortstati- 40 
stik und Wortschatzen. Die Diktat- bzw. Vokabel-Er- 

kennung findel bei Biirodiktiersyslemen Anwendung; 

- die Grammatikerkennung stCitzt sich auf anwen- 
dungsspezifisch gestaltete Regelsysteme, integriert 
hierbei erwartete Satzbauplane unter Verwendung von 45 
Variablen; 

- die Einzelworterkennung bzw. Keyword- Spotting 
wird dann eingesely.l, wenn erkennungsunterstutzende 
Sprachdaten fehlen und wenn innerhalb langerer 
Sprachpassagen einzelne festgelegte Schliisselworter so 
erwartet werden. 

[0005] Ein Spracherkennungssystem zur Behandlung von 
Sprechinfomiationen, die /.wischen einem menschlichen 
Gcsprachspartncr und cincm automatischen Gcsprachsan- 55 
nahmesystem, ausgetauscht werden, sind beispielsweise aus 
der VerofFentlichung 'VSpoken language systems - beyond 
prompt and response" (BT Technol J Vol 14 No 1 January 
1996) bekannt. Das Dokument offenbart ein Verfahren und 
ein System /.ur interaktiven Kommunikation /.wischen ei- 60 
ncm menschlichen Gcsprachspartncr und cincm automati- 
schen Gesprachsannahmesystem. Das System weist eine 
Spracherkennung auf, die eine gesprochene AuBerung in 
cinzclnc oder mchrcrc Wortcr oder Wortkcttcn konvcrticrt. 
Weiter ist ein Schritt der Bedeutungsextraktion vorhanden, 65 
in dem der erkannten Wortfolge eine Bedeulung zugemes- 
sen wird, aufgrund dercr das Gesprach von Scitcn dcs auto- 
matischen Gesprachsannahmesystems einem nachsten 
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Schritt zugefiihrt werden kann. Mittels einer Datenbankab- 
frage kann zu einem erkannten Wort eine Zusatzinformation 
erhalten werden. Aufgrund der erkannten und ermittelten In- 
formationen wird eine Antwort generiert, die mittels eines 
Sprachsynthesizers in gesprochene Sprache transformiert 
und an den menschlichen Gesprachspartner weitergegeben 
wird. Sofem der menschliche Gesprachspartner iiber ein 
multimodales System, d. h. (Internet-PC mit Sprachan- 
schluss) mit dem Gesprachsannahmesystem kommuniziert, 
konnen ihm Informationen, die das automatische Ge- 
sprachsannahmesystem ermittelt hat, visuell am Bildschirm 
und/oder akustisch iiber PC-Lautsprecher bzw. Kopfhorer 
zur Verfiigung gestellt werden. Fiir weitere Details sei auf 
das genannte Dokument und die dort zitierte Sekundarlitera- 
tur verwiesen. 

[0006] Trotz diesem hohen Grad an Automatisierung sind 
solche Spracherkennungssysteme insbesondere hinsichtlich 
der Erkennung der Sprachinformation aufgrund der von Per- 
son zu Person unterschiedlichen Aussprache problematisch, 
wenn das Spracherkennungssystem nicht im Rahmen einer 
Lemphase auf die konkrete Aussprache einer Person einge- 
stellt ist. Insbesondere Gesprachsannahmesysteme, bei de- 
nen ein Gesprachspartner eine Information erfragt oder eine 
Information abgibi, sind aufgrund der hnhcn Eehlen-ate 
beim Spracherkennungsprozess und der unterschiedlichen 
Reaktion der einzelnen Gesprachspartner noch nicht prakti- 
kabel. Daher ist es bei vielen Anwendungen immer noch 
zwingend notwendig, anstelle eines Gesprachsannahmesy- 
stems einen zweiten Gesprachspartner einzusetzen, der In- 
formationen des ersten Gesprachspartners entgegennimmt 
oder zur Verfiigung stellt. Falls der zweite Gesprachspartner 
Informationen entgegennimmt, ist diese - in welcher Form 
auch immer - zumeisi aufzunehmen, niederzuschreiben 
oder in einen Computer einzugcben. 
[0007] Des weiteren ergibt sich hiiufig die Nolwendigkeit, 
dass solche Gesprache nachbearbeilet werden miissen, z. B. 
um bei einem Verkaufsgesprach oder einer Vertragsverhand- 
lung nachvoUziehen zu konnen, wer was in welchem Zu- 
sammenhang gesagt hat. Die Nachbearbeitung aus der Erin- 
nerung oder aus mitgeschriebenen Notizen ist haufig fehler- 
haft, und der zeitliche Ablauf lasst sich kaum genau rekon- 
struieren. Milschnille auf Tonlriigem sind /.war irioghch, sie 
lassen sich jedoch nur schwer in die giingige EDV-Land- 
schaft integrieren. Digitale Aufzeichnungen der akustischen 
Daten haben einen hohen Bedarf an Speicherplatz. 
[0008] Diese Verfahrensweisen haben nicht nur hohc Pcr- 
sonalkosten zur Folge, sondern nehmen auch sehr viel Zeit 
in Anspruch, so dass der Gesprachsdurchsatz sowie die 
Nachbereitung nicht optimal ist. 

[0009] Ein weiteres Problem stellt sich, wenn eine Viel- 

zahl von Gesprachen geflihrt werden und diese dann, sofem 
sic in irgend einer Form gospeichcrt sind, moglichst schnell 
und einfach aufgefunden werden sollen. Insbesondere ist ge- 
wilnscht, /.. B. fiir slatislische Zwecke einen einfachen Zu- 
griff auf die Gcsprachsdatcn zu haben. 
[0010] ZusatzHch ware es vorteilhaft, wenn man einen 
Gesprachspartner automatisch identifizieren konnte. 
[0011] In diesem Zusammenhang kann auch die Situation 
entstehen, dass ein Gesprachspartner in einer Sprache 
spricht, auf die das Spracherkennungssystem nicht einge- 
stcUt ist. In so cincm Fall ware cs vorteilhaft, wenn die Spra- 
che des betreffenden Gesprachspartners automatisch er- 
kannt werden konnte. 

[0012] Der vorlicgcndcn Erfindung licgt daher die Auf- 
gabe zugrunde, ein Verfahren bereitzustellen, bei dem der 
Gesprachsdurchsatz erhohl und vor allem die Sprache des 

Gesprachspartners idcntifiziert werden kann. 

[0013] Diese Aufgabe wird erfindungsgemaB gelost durch 
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ein Verfahren zur Behandlung von Sprachdaten aus einem 
Gesprach zwischen einem ersten menschlichen und einem 
Oder meiireren zweiten mensdilichen Gesprachspartnem 
und/oder einem Gesprachsannahmesystem oder zwischen 
einem ersten menschlichen und einem oder mehreren zwei- 5 
ten menschlichen Gesprachspartnem, bei dem aus dem Ge- 
sprach Sprachdaten erzeugt werden, dadurch gekennzeich- 
net, 

- und dass die Sprache des ersten Gesprachspartners 10 
automatisch erkannt wird 

- dass die Sprachdaten ganz oder teilweise mittels d- 
nes automatischen Spracherkennungssystems analy- 
siert und in Text umgewandelt wird. 

15 

[0014] Sprachdaten im Sinne der Erfindung sind die Daten 
eines akustischen Gespraches, die mit Hilfe eines techni- 
schen Aufnahmesystems (z. B. Mikrofon) aus den Ge- 
sprachsauBerungen erzeugt und/oder registriert werden kon- 
nen. Bin automatisches Spracherkennungssystem im Sinne 20 
der Erfindung ist ein System, das solche Sprachdaten aus ei- 
ner gesprochene AuBerung automatisch in Text umwandeln 
kann. Text im Sinne der Erfindung ist weit zu interpretieren, 
es bedeutet orthographische hzw. textuelle Information, die 
z. B. als Text an einer Ausgabevorrichtung wie Drucker 25 
oder Bildschinn als Text im ubhchen Sinne dargestelll wer- 
den kann, die aber auch als z. B. als (Binar-)Code auf einem 
digitalcn Speichemiedium gespeichert werden kann. 
[0015] Gegenstand der Erfindung ist weiter ein System 
zur Durchfiihrung dieser Verfahren, aufweisend 30 

- mindestens eine elektronische Vorrichtung zur Er- 
kenniing und Extrahierung von Sprachdaten (Spracher- 
kennungssystem), die mit einer oder mehreren Vorrich- 
tungen zur Erfassung von Sprachdaten (Gesprachsan- 35 
nahmesystem) verbindbar ist, und 

- ein oder mehrere Mittel zur Darstellung und/oder 
Speicherung von erkannten und/oder extrahierten 
Sprachdaten, wobei das oder jedes Mittel zur Darstel- 
lung und/oder Speicherung direkt oder indirekt mit der 40 
Erkennungs- und Extrahierungsvorrichtung verbunden 
ist. 

[0016] "Direkt" bedeutet hier, dass die Verbindung uber 
ein Kabel hergestellt ist, "indurekt" bedeutet hier drahtlos, 45 
beispielsweise iiber das Internet, iiber Funk- oder Infrarot- 
verbindung. 

[0017] Gegensland der Erfindung ist ebenso ein Conipu- 
terprogramm mit Programmcode-Mitteln, um alle Schritte 
von einem beliebigen der erfindungsgemaBen Verfahren 50 

auszufuhren, wenn das Programm auf einem Computer aus- 
gcfiihrt wird, sowic cin Computcrprogrammprodukt, das cin 
derartiges Programm auf einem computerlesbaren Speicher- 
mecUuni enthiill, sowie ein Corripuler mil einem niichtigen 
oder nichtfluchtigcn Spcichcr, in dem cin derartiges Pro- 55 
gramm gespeichert ist. 

[0018] Besondere Ausfuhrungsformen des erfindungsge- 
maBen Vcrfahrcns bzw. besondere Ausgcstaltungcn der er- 
findungsgemaBen Vorrichtungen sind in den jeweiUgen Un- 
leranspriichen offenbarl.. Es ktinnen auch einzelne oder irieh- 60 
rcrc oder bclicbigc Kombinationcn der in den jcwciligcn 
Unteranspruchen einer Kategorie offenbarten Merkmale zu- 
sammen mit den Merkmalen des jeweihgen Hauptanspruchs 
crfindcrischc Losimgcn der der Erfindung zugrunde Hcgcn- 
den Aufgabe darstellen. 65 
[0019] Die Erkennung der Sprache eines Gesprachspart- 
ners kann beispielsweise folgcndcrmaBon durchgofiihrt wer- 
den: Die Sprachdaten werden online, d. h. moglichst zeimah 
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bzw, nahezu zeitgleich, einer Erequenzanalyse unterzogen. 
Dies kann mittels der bekannten Algorithmen, beispiels- 
weise der Fouriertransformation, durchgefiihrt werden. Als 
Ergebnis erhalt man ein Frequenzspektrum, in dem einer be- 
stimmten SchaUfrequenz eine bestimmte Lautstarke zuge- 
ordnet ist. Hat man ftir mehrere Sprachen charakteristische 
Merkmale solcher Spektren, die also fiir eine bestimmte 
Sprache typisch sind, vorab gespeichert, so kann man einen 
Vergleich der online aufgenommenen Spektren mit den ge- 
speicherten durchfiihren und bei einer gefundenen tJberein- 
stimmung die entsprechende Sprache dem betreffenden Ge- 
sprachspartner zuordnen und das Spracherkennungssystem 
auf diese Sprache einstellen, oder das Gesprach automatisch 
an eine Annahmestelle weiterleiten, die fur die betreffende 
Sprache vorgesehen ist. Ist die Zuordnung der Sprache nicht 
eindeutig moglich, weil z. B. die Aufnahme der Sprachdaten 
zu schlecht ist oder der Sprechende zu undeuthch spricht, 
konnen sich mehrere Sprachen als mogliche Sprachen erge- 
ben. Dann kann eine Wahrscheinlichkeitsbetrachtung durch- 
gefiihrt werden, dergestalt, dass die Sprache als die wahr- 
scheinlichste angesehen wird, fiir die beim Vergleich die 
groBte Zahl an iibereinstimmenden Merkmalen gefunden 
wird. Durch wiederholte Aufnahme von Spektren kann bei 
entsprechend langer Gesprachsdauer bzw. bei entsprechen 
haufigen AuBerungen des jeweiligen Gesprachspartners die 
Genauigkeit der Erkennung der Sprache iterativ gesteigert 
werden. 

[0020] Ein anderes Verfahren zur Erkennung der Sprache 
kann darin bestehen, dass man zunachst die vorab einge- 
stellte Sprache des Spracherkennungssystems beibehalt und 
versucht, den Sprachdaten bzw. AuBerungen des GesptSchs- 
partners Worter aus dem Wortschatz der betreffenden Spra- 
che zuzuordnen. SoUte die Anzahl von erkannten und zuge- 
ordneten Wortern zu gering sein, d. h. unter einer vorein- 
stellbaren Schwelle liegen, wird der Wortschatz einer oder 
mehrerer anderen Sprachen zugrunde gelegl. Diejenige 
Sprache, bei deren Wortschatz die meisten Worter erkannt 
und zugeordnet werden konnen, wird dann als die wahr- 
scheinlichste Sprache ausgewahit und der weiteren Sprach- 
erkennung zugrunde gelegt. 

[0021] Wie bereits erwahnt, ist bekannt, dass automati- 

sche Gesprachsannahinesysleine eingeselzl werden konnen, 
wenn der erwartete Gesprachsinformationsfluss weitgehend 
vorbestimmt ist, wenn also ein Gesprachspartner beispiels- 
weise eine Antwort auf eine Frage - ja oder nein, eine Zahl 
zwischen 1 und 5 etc. - dem Gesprachsannahmesystem mit- 
teilt. In diesem Fall konnen die Sprachdaten vom Spracher- 
kennungssystem mil einer hohen Erfolgsrale richtig erkannt 
werden und die entsprechenden Informationen konnen zur 
weiteren Verarbeitung gespeichert werden. 
[0022] Fiir komplexere Gesprache ist erfindungsgemaB 
wcitcr erkannt worden, dass anstellc eines Gcsprachsannah- 
mesystems ein zweiter Gesprachspartner erforderlich ist, 
urn einen Infonriationsauslausch garantieren zu konnen, der 
nicht durch fchlcrbchaftctc Sprachcrkcnnungssystcmc vcr- 
falscht wird. Insoweit ist jedoch vorgesehen, dass dem zwei- 
ten Gesprachspartner Hilfestellungen zur Verfiigung gestellt 
werden, die ihm das mithsamc und zeitaufwcndigc Eingc- 
ben oder Aufnehmen von Daten erleichtem bzw. abnehmen. 
Hier/.u werden die Sprachdalen des Gespriichs des ersten 
und des oder jcdcn zweiten Gesprachspartners einem 
Spracherkennungssystem zugefuhrt. Es ist auch denkbar, 
dass die Sprachdaten ledigUch des ersten (lesprachspartners 
dem Spracherkennungssystem zugefuhrt werden. Das 
Spracherkeimimgssystem fiihrt nun mindestens fiir eine Un- 
(emienge der Sprachdaten - z. B. die Sprachdaten lediglich 
cincs Gesprachspartners, ganz aUgemcin fiir alle Sprachda- 
ten - die Spracherkennung durch. Selbst wenn diese nur tell- 
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weise erfolgreich ist, konnen die hieraus extrahierbaren In- 
fomationen einem Gesprachspartner zur Verfiigung gestellt 
werden. Hierdurch konnen zumindest nahezu fehlerfrei ein- 
fache Daten wie Zahlen oder kurze Antworten auf Fragen 
vom Spracherkennungssystem erkannt werden, die dem Ge- 5 
sprachspartner sodann in einer speicherbaren Form vorlie- 
gen. 

[0023] Es kann jedoch auch fur komplexere Gesprache 
das Gesprach zunachst von einem automatischen Ge- 
spraclisannahmesystem entgegengenommen werden, wel- 10 
ches das Gespracii dann eine den oder jeden zweiten Ge- 
sprachspartner weiterleitet oder diesen hinzuschaltet. 
Ebenso kann das Gesprach von dem automatischen Ge- 
sprachsannahmesystem hergestellt werden, indem dieses 
System so eingestellt ist, dass es Personen anhand einer vor- 15 
definierten Liste (z. B. Telefonbuch) automatisch per Tele- 
fon anwahlt und anschlieBend den oder jeden zweiten Ge- 
sprachspartner hinzuschahet oder das Gesprach an diesen 
weiterleitet. So konnten beispielsweise einfache Meinungs- 
umfragen automatisch erstellt werden. 20 
[0024] Bevorzugt ist das Spracherkennungssystem in das 
automatische Gesprachsannahmesystem integriert. 
[0025] Falls ein Gesprachsannahmesystem eingesetzt 
wird, ist vorgesehen, dass das Gesprachsannahmesystem als 
ein "Interactive Voice Response System" (IVRS) arbeitet. 25 
Ein solchcs IVRS-System ist in der Lage, mit einem Ge- 
sprachspartner - wenn auch in eingeschrankiem Rahmen - 
zu kommunizieren und in Abhangigkeit seiner Sprachein- 
gabe entsprechend zur reagieren. Vorzugsweise ist ein auto- 
matisch arbeitendes IVRS-System vorgesehen. 30 
[0026] Eine hohe Erkennungsrate kann in besonders vor- 
teiUiafter Weise dann erzielt werden, wenn der Gesprachs- 
partner, dessen Sprachdaten zu analysieren sind, mit vorgc- 
gebcnen Gesprachsstrukturen konfrontiert wird. Dies kon- 
nen lirkliirungen und/odcr iTagcn dcs Gcsprachsannahme- 35 
systems bzw. des zweilen Gcspraclisparlners sein, die in die- 
ser Weise dem Spracherkennungssystem schon bckannl 
sind. Auf die gezielten Fragen bzw. die vorgegebenen Ge- 
sprachsstrukturen wird dann sehr wahrscheinlich der damit 
konfrontierte Gesprachspartner in der Regel "erwartungsge- 40 
maB" reagieren, so dass aus dieser erwartungsgemaBen Re- 
aklion die darin enlh^illcne Infonnalion mil hoher Wahr- 
scheinlichkeit richtig erkannt und dementsprechend extra- 
hicrl bzw. abgespeichert werden kann. Insoweit konnte hier 
in besonders vorteilhafter Weise zur Spracherkennung die 45 
Methode der Grammatikerkennung eingesetzt werden. 
[0027] Zur praktischen Realisierung eines Gesprachsan- 
nahrnesyslerns und/oder eines Spnicherkennungssystenis ist 
vorgesehen, dass mindestens ein Computer eingesetzt wird. 
Hierbei kann es sich bei dem Gesprachsannahmesystem und 50 
bei dem Spracherkennungssystem um ein und denselben 
Computer handcln. In bcvorzugtcr Ausgcstaltung ist jedoch 
vorgesehen, dass lediglich ein Computer als Gesprachsan- 
nahiriesystein eingesetzt wird. Die Sprachdalen des Ge- 
sprachs werden dann einem andcrcn Computer zugclcitct, 55 
auf dem das Spracherkennungssystem implementiert ist. Ein 
solcher Computer soUte hinreichende Tjcistungsdaten auf- 
wciscn. Dariibcr hinaus wcist ein als Gesprachsannahmesy- 
stem eingesetzter Computer eine Schnittstelle zum Auf- 
bauen einer Telefon- und/oder Videoverbindung auf. Eine 60 
wcitcrc Schnittstelle ist vorgesehen, iibcr die Sprach- bzw, 
und Videodaten ein- bzw. ausgegeben zu werden. 
[0028] Die Spracherkennung selbst konnte auf einem oder 
auf mchrcrcn Computcm ausgefiihrt werden. Insbcsondcrc 
bei zeitkritischen Anwendungen wird die Spracherkennung 65 
vorzugsweise aufmehreren Compulem vorzugsweise paral- 
lel ausgefiihrt. So konnte beispielsweise der Sprachcrkcn- 
nungsprozess in mehrere Teilprozesse aufgeteilt werden. 



wobei jeder Teilprozess auf einem Computer ausgefiihrt 
wird. Bei der Unterteilung in Teilprozesse konnten jedem 
Teilprozess einzelne Satze oderNebensatze zugeordnet wer- 
den, eine zeitliche Aufteilung der Sprachdaten - beispiels- 
weise in ZeitintervaUe von jeweils 5 Sekunden - ware eben- 
faUs denkbar. Falls der Computer mehrere Prozessoren 
(CPUs) aufweist, konnten die Teilprozesse auf die Prozesso- 
ren des Computers verteilt parallel ausgefiihrt werden. 
[0029] Falls die Rechenleistung eines einzelnen Compu- 
ters zur Spracherkennung und/oder fiir das Gesprachsannah- 
mesystem nicht ausreicht, konnte ein Computer-Netzwerks- 
ystem vorgesehen sein, so dass diese Aufgaben auf mehre- 
ren Computem parallel ausflihrt werden. Insbesondere 
konnten einzelne Computer des Netzwerksystems spezielle, 
unterschiedliche Spracherkennungsmodi ausfiihren, so dass 
jeder Computer die gleichen Sprachdaten unter einem ande- 
ren Gesichtspunkt analysiert, 

[0030] Insbesondere bei der Auswertung von Sprachda- 
ten, die von einem Gesprachsannahmesystem aufgezeichnet 
worden sind, konnte eine Spracherkennung individuell auf 
einen Analyseauftrag ausgerichtet sein. So konnte beispiels- 
weise eine Zuschauerumfrage oder ein Zuhorerquiz einer 
Femseh- oder Radiosendung automatisch dahingehend aus- 
gewertet werden, welche politische MaBnahnie beispiels- 
weise bei den Zuschauem bzw. in der Zuhorerschafl cine ho- 
here Akzeptanz hat. Hierbei konnte als Analyseauftrag bei- 
spielsweise vorgegeben sein, herauszufinden, ob IVIaBnahme 
A oder IVIaBnahme B bevorzugt wird, so dass die Informa- 
tion und die Kenntnis der mogUchen Varianten der Umfrage 
bei der Spracherkennung beriicksichtigt bzw. der Spracher- 
kennung als zusatzliche Information zur Verfiigung gesteUt 
werden. 

[0031] Falls die Sprachdaten von einem Gesprach zwi- 
schcn /,wci Gcspriichspartnern stammen, ist in ganz beson- 
ders bevorzugter Weise vorgesehen, dass die Spracherken- 
nung individuell auf einen Analyseauftrag ausgerichtet 
wird. Dieser konnte beispielsweise die Spracherkennung der 
Sprachdaten hauptsachUch von einem der beteiUgten Ge- 
sprachspartner umfassen, wobei die Analyse hierbei bei- 
spielsweise spezieU auf die Erkennung der Telefonnummer 
des einen Anrufers oder Ahnliches gerichtet sein kann, 
[0032] Als Melhoden zur Spracherkennung sind die Dik- 
tat-, Grammatik-, Einzelworterkennung und/oder das Key- 
word-Spotting vorgesehen. Hierbei konnte beispielsweise in 
Abhangigkeit des aktuellen Gesprachszustands von der ei- 
nen Spracherkennungsmethode auf die andere Spracherken- 
nungsmethode umgeschaltet werden, wenn absehbar ist, 
da.ss eine andere Spracherkennungsmethode fur den aktuel- 
len Gesprachszustand die besseren Ergebnisse bei der 
Spracherketmung verspricht. Vorzugsweise konnten die un- 
terschiedlichen Methoden der Spracherkennung auch paral- 
lel eingesetzt werden, was beispielsweise auf mehrere Com- 
puter parallel verteilt durchgefiihrt wird. 
[0033] Ganz besonders bevor/.ugl isl vorgesehen, die 
Spracherketmung wicdcrholt auszufiihrcn. Hicrzu ist es 
moglich, die Sprachdaten bzw. die zumindest weitgehend 
unverandert gespeicherten Sprachdaten eines Gesprachs 
wicdcrholt untcrschicdlichcn oder gleichen Sprachcrkcn- 
nungsprozessen zuzufiihren. Eine wiederholte Spracherken- 
nung isl insbesondere bei einem Offline-Erkennungssystem 
\ orgcschcn, da bier cine Zcitvcrzogcrung der Spracherken- 
nung moglich ist. 

[0034] Fiir eine weitere Spracherkennungsstrategie ist 
vorgesehen, cine dynamischc Anpassung der Spracherken- 
nung vorzunehmen. Hierbei kotmte beispielsweise das Vo- 
kabular zur Spracherkennung variierl. und/oder angepasst 
werden. So konnte cine zunachst cingcsctzto Spracherken- 
nungsmethode - beispielsweise die Diktaterkennung - eine 
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geringe Erkennungsrate ergeben, so dass abzusehen ist, dass 
die Beibehaitung der Diktaterkennung nur wenig Aussicht 
auf Erfolg haben wird. Sodann ist vorgesehen, d5maimsch 
eine andere Spracherkennungsmethode einzusetzen, wobei 
auch bei der neu eingesetzten Sprachmethode sofort die Er- 5 
kennungsrate analysiert wird und gegebenenfalls ein weite- 
rer dynamischer Spracherkennungsschritt folgt. Ilierbei 
konnte auch vorgesehen sein, auf mehreren Computem par- 
allel die gleiche Spracherkennungsmethode auf die Sprach- 
daten anzuwenden, jedoch wird auf jedem Computer ein an- 10 
deres Vokabular zur Spracherkennung eingesetzt. Eine un- 
mittelbare Analyse der Erkennungsrate dieser parallel ver- 
laufenden Spracherkennungsprozesse kann eine dynami- 
sche Anpassung bzw. Steuerung der weiteren Spracherken- 
nung zur Folge haben. 15 
[0035] Zusatzlich oder altemativ ist ein ganz besonders 
bevorzugter Verfahrensschritt vorgesehen, der unter dem 
Oberbegriff "Vokabulardynaiiiisierung" zusammengefasst 
werden kann. Ilierbei werden die Sprachdaten mehmials 
analysiert. In einem ersten Erkennungsschritt werden die 20 
Sprachdaten klassifiziert. Hierzu konnten beispielsweise 
Methoden des Keyword-Spotting eingesetzt werden. In Ab- 
hangigkeit des Ergebnisses der Sprachdatenklassiflzierung 
werden die Sprachdaten in einem weiteren Frkcnniings- 
schritt unter Ilinzuziehung von speziellem Vokabular crneut 25 
untersucht, Hierbei wird dem Erkennungsvorgang ein Voka- 
bular zugrundegelegt, das in direktem oder im naheren Zu- 
sammenhang mit dem Ergebnis des Sprachdatenklassifizie- 
rungsschritts Uegt. Hierbei ist es durchaus denkbar, dass 
dem Erkennungsschritt der Sprachdaten ein Vokabular aus 30 
mehreren spezieUen Bereichen zugrundegelegt wird. Dieser 
weitere Erkennungsschritt wird vorzugsweise auf die ur- 
spriingUchen Sprachdaten angewandt, wobei jedoch die im 
ersten Erkennungsschritt gewonnenen Infomiationen hinzu- 
gezogen werden konnen. Demgerttass werden die Verfah- :v5 
rcnsschriile der Vokabulardynamisierung immer wietier auf 
die urspriinglichen Sprachdaten angewandt. 
[0036] In einer bevorzugten Ausfiihrungsform des erfin- 
dungsgemassen Verfahrens wird das Gesprach automatisch 
an eine fiir die betreffende Sprache vorgesehene Annahme- 40 
stelle weitergeleitet. Wahrend der Weiterleitung oder bei 
Nichlverfiigbarkeil von Annahineslellen kann der Ge- 
sprachspartner mit Hilfe von Sprachprompts, das sind vorab 
oder automatisch erzeugte Informationssequenzen, automa- 
tisch informiert werden. In einer weiteren bevorzugten Aus- 45 
fuhrungsfomi lauft der Erkennungsvorgang der Sprache im 
Hintergrund ab. 

[0037] In einer weiteren bevor/.uglen AusPuhrungsfonii 
werden die Sprachdaten nicht nur in textueUe Information 
umgewandelt, sondem auch einer Frequenzanalyse unterzo- 50 

gen. Die erhaltenen Spektren konnen zeitnah, d. h. online 
aufgcnommcn und cbcnso zeitnah auf cincm Anzcigcgcrat 
wie einem BUdschirm ausgegeben und damit einem Ge- 
spriichsparlner zur Verfugung gestellt werden. Bevor/.ugt 
werden cinzclncn Wortcm des crkaimtcn Tcxtcs cinzclnc 55 
zeitUche Abschnitte der Frequenzanalyse bzw. einzelne 
Spektren z.ugeordnet und/oder abgespeichert. Ebenso kon- 
nen cinzclnc Spektren gcspcichcrt und den bctrclfcndcn 
Wortern zugeordnet werden. Weiter bevorzugt werden be- 
kannl.e Dalen des Anrufers solchen Speklren zugeordnet. 60 
Vcrglcicht man dann bei glcichcn Wortcm die Spektren von 
unterschiedlichen Anrufen, so kann ermittelt werden, ob die 
betreffenden (Jesprachspartner identisch sind. Entsprechend 
kann auch die Idcntitat cincs Anrufers, der sich nicht na- 
mentUch zu erkennen gibt, ermittelt werden, wenn ein Spek- 65 
trum eines aus dem Gesprach gefallenen Wortes mit einer 
bcrcits vorhandcncn "Kartci" vcrglichcn wird - sofcm der 
Gesprachspartner bereits einmal identifiziert wurde. 
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[0038] Ein weiterer Vorteil der Frequenzanalyse besteht 
darin, dass die subjektive Stimmung eines Gesprachspart- 
ners erkannt werden kann. Dies kann beispielsweise derge- 
stalt durchgefuhrt werden, dass das Spektrum eines be- 
stimmten Wortes bei unterschiedlichen Stimmungen des je- 
weils Sprechenden aufgenommen und gespeichert wird. 
Dies kann beispielsweise in Vorversuchen oder bei bekann- 
ter Stimmung eines bekannten Gesprachspartner durchge- 
fiihrt werden. Aus dem Vergleich der gespeicherten Spek- 
ticn mit einem Spektrum des aktuell Gesprochenen kann 
dann auf die aktuelle Stimmung des Sprechenden geschlos- 
sen werden. Dies kann insbesondere bei Verkaufsgespra- 
chen oder bei Vertragsverhandlungen niitzUch sein. Zum ei- 
nen, wenn es dem jeweils anderen Gesprachspartner online 
gezeigt wird, zum anderen in der Nachbereitung, wenn man 
das Gesprach anhand der gespeicherten Daten (Worter und 
zugehorige Spektren) im Nachhinein analysiert. 
[0039] In weiter bevorzugter Ausfiihrungsform kann bei 
einer bestimmten erkannten Stimmung eines Gesprachspart- 
ners eine bestimmte Aktion eines Gesprachsannahmesy- 
stems automatisch bzw. programmgesteuert initiiert werden. 
Beispielsweise kann erkannter schlechter Stimmung eines 
Gesprachspartners automatisch eine bestimmte Musik ein- 
gespiell werden, die auf eine Verbesserung der Stimmung 
des Gesprachspartners hinwirkt. Die erkannte Stimmung 
kann weiter dem Gesprach bei der Speicherung als Klassifi- 
kation zugeordnet werden. Dies kann bei einer statistischen 
Auswertung bei einer \^elzahl von Gesprachen vorteilhaft 
sein. 

[0040] In einer bevorzugten Ausfiihrungsform folgt auf 
die Umwandlung der Sprachdaten in Text, d. h. in orthogra- 
phische bzw. textuelle Information, in einem weiteren, zu- 

satzlichen Schritt die Unlersuchung des erhaltenen Textes 
auf Schliissclworter. AnschlieBend wird dem Gesprach an- 
hand tier erkannten Schltisselworter eine KlassifikaUon zu- 
gelcill. Dicsc Verfahrensschrille konnen beispielsweise da- 
durch umgesetzt werden, dass der Text auf Schliisselworter 
wie "Fehler", "beschweren", "zuriickgeben" oder ahnliches 
durchsucht wird. Falls eines oder mehrere dieser Worter ge- 
funden wird, kann dem Gesprach ein Klassifikation wie 
"Beschwerde" zugeordnet werden. 

[0041] Schliisselworler und zugehorige Klassifikation 
konnen in einer oder mehreren Tabellen gespeichert und ein- 
ander zugeordnet sein, beispielsweise auf die Weise, dass in 
einer Spalte einer Tabelle mit dem Namen "Beschwerde" die 
oben genannten Schliisselworter in den Zeilen darunter an- 
geordnet sind. Es konnen aber auch die Schliisselworter in 
einer Datei mit dem Namen der betreffenden Klassifikation 
abgespeichert sein. In bevorzugter Ausfiihrungsform ist die 
Klassifikation auf den Zweck des Anrufs gerichtet. Bei- 
spiele hierfiir sind: Infonnation, Beschwerde, Problem, Pro- 
dukt X, . . .. Fiir dicsc Klassifikationcn gccignctc Schliissel- 
worter ergeben sich fiir den Fachmarm von selbst. Geeignete 
SchlQsselworter konnen auch aufgnind von Versuchen oder 
von Auswcrtungcn bcrcits gcspcichcrtcr Gcsprachc Icicht 
ermittelt werden. Zusatzlich oder altemativ kann die Klassi- 
fikation auch auf die Stimmung des Gesprachspartners ge- 
richtet sein. Werden in cincm Bcschwcrdcgcsprach iiber 
eine erfolgte Liefemng einer Sache Schliisselworter wie 
"Schrolt" und "unzuiriutbar" gefunden, kann das Gesprach 
beispielsweise der Klassifikation "gcreizt" zugeordnet wer- 
den. Die genannten Beispiele soUen lediglich als Anhalt- 
punkt dienen. Der Anwender kann sich fiir seinen Bedarf, 
der am scincm jcwciligcn Goschaftszwcck angclchnt ist, 
seine eigenen Wortkombinationen leicht selbst zusammen- 
stellen. Die Klassifikation wir vorteilhafterweise /.usamtnen 
mit dem Gcsprachstcxt gespeichert. Altemativ kann auch 
eine Verkniipfung des gespeicherten Gesprachs mit der 
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ebenfalls gespeicherten Klassifikation erfolgen, 
[0042] Uber eine derartige Klassifikation konnen bei- 
spielsweise Gesprache, die ein bestimmtes Produkt X, be- 
treffen statistisch ausgewertet werden. Dies kann dem Iler- 
steller helfen, seine Produktqualitat zu verbessem oder bes- 5 
ser auf Kundenwiinsche einzugehen. 
[0043] In einer weiteren bevorzugten Ausfuhrungsform 
des erflndungsgemaBen Verfahrens erfolgt ein Abspeichern 
des erkannten Textes mit zugeordnetem zeitlichen Verlauf. 
Dies hat unter anderem den Vorteil, dass fiir die Aufzeich- 10 
nung von Gesprachen auf Datentragem fiir Datenverarbei- 
tungsanlagen nun weniger Speicherplatz erforderlich ist als 
notwendig ware, wenn das Gesprach akustisch aufgezeich- 
net werden soUte, beispielsweise als "wav-Datei". Wtirde 
ein Gespracti als eine derartige Datei gespeichert werden, 15 
wiirden pro Minute Gespraclisdauer etwa 8 MByte ge- 
braucht werden. Wird das Gesprach erfindungsgemaB in 
Text gewandelt und gespeichert, benotigt das gleiche Ge- 
sprach nur einige KByte. 

[0044] Aus der gespeicherten ZeitUchen Abfolge des Ge- 20 
spiSchs ist ersichtUch, was zu welchem Zeitpunkt gespro- 
chen wurde. Daraus kann dann der Inhalt und die Bedeutung 
der einzelnen Gesprachsabschnitte im Nachhinein besser 

und genauer emiittelt werden. 

[0045] In einer besonderen Ausfiihrungsfomi wird der er- 25 
kannte Text dem jeweiligen Gesprachspartner zugeordnet 
werden. Dies kann beispielsweise dadurch geschehen, dass 
man die Stimmen mit Hilfe einer Frequenzanalyse analy- 
siert, daraus Charakteristika fiir den jeweiligen Gesprachs- 
partner ermittelt und iiber diese Charakteristika eine Zuord- 30 
nung der gesprochenen und erkannten Worter zu dem jewei- 
Ugen Gesprachspartner vomimmt. Unterstutzend oder alter- 
niiliv d:i/.ii kann cine Zuordnung auch anhand von Schliis- 
sclworlcn, beispielsweise Namen, erfolgen. 
[0046] In einer weiteren bevorzugten Ausfuhrungsform 35 
kann die /eilUche Abfolge der erkannten Worter auf einem 
Bildschirm graphisch dargestellt werden. Dies kann bei- 
spielsweise auf die Weise erfolgen, dass die erkannten Wor- 
ter auf einer Zeitskala angeordnet sind. Ist die Zahl der Wor- 
ter zu groB um noch iibersichtlich dargesteUt zu werden, 40 
konnen lediglich einzelne Schliisselworter, die in einer 
vorab eingerichlelen Tabelle definierl sein konnen, auf der 
Zeitskala angeordnet sein. Die graphische Darstellung kann 
auf einem Computer so implementiert sein, dass durch an- 
wahlen von einzelnen Schliisselwortem der voUstandige, zu 45 
einem vorwahlbaren Zeitabschnitt gehorige Text dargesteUt 
wird. Dies fiihrt vor aUem bei langeren Gesprachen zu einer 
erheblichen Z^iteinsparung. Dies kann online oder zeitver- 
setzt erfolgen. Eine Online-DarsteUung hat den \forteil, dass 
der betreifende (zweite) Gesprachspartner sich wahrend des 50 
Gesprachs iiber das bereits Gesprochene informieren kann. 
[0047] Im folgcndcn werden itcrativ wcitcrc Erkcnnungs- 
schritte durchgefiihrt, die im Idealfall zur voUstandigen Er- 
kennung der gesarrilfin Sprachdaten oder /.urnindest einer 
Untcrmcngc der Sprachdaten fiihrt. Die weiteren itcrativon 55 
Erkennungsschritte werden vorzugsweise iiber Erkennungs- 
wahrscheinlichkeiten gesteuert, so dass hierdurch beispiels- 
weise ein Abbruchkritcrium fiir wcitcrc Erkennungsschritte 
gegeben sein kann, wenn z. B. sich die Erkennungswahr- 
scheinlichkeit nicht niehr iinderl. 60 
[0048] Aus Sichcrhcitsgriindcn konnen die Sprachdaten 
des Gesprachs selbstverstandlich weitgehend unverandert 
gespeichert werden. Das Abspeichern konnte hierbei samtU- 
chc Sprachdaten des Gesprachs umfasscn. Falls beispiels- 
weise ein Gesprachspartner oder das Gesprachsannahmesy- 65 
steiri vorgegebene, dein Spracherkennungssysteiti bekannte 
Gcsprachsstrukturen vcrwcndct, konntcn lediglich die 
Sprachdaten des anderen Gesprachspartners abgespeichert 
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werden. Grundsatzlich kann bei dem Speichervorgang vor- 
gesehen sein, zusatzfich zu den Sprachdaten Marker bzw. 
Bookmarks abzuspeichem, so dass das abzuspeichemde Ge- 
sprach hierdurch sinnzusammenhangend oder logisch unter- 
teilt wird. Diese Unterteilung konnte bei einer nachfolgen- 
den Sprachdatenerkennung den Vorgang der Informations- 
extraktion beschleunigen oder vereinfachen. Weiterhin kann 
vorgesehen sein, dass Informationen iiber den aktuellen Ge- 
sprachszusiand bei der Spracherkennung beriicksichtigt 
werden. So konnte beispielsweise zu Beginn des Gesprachs 
der Umstand beriicksichtigt werden, dass die beiden Ge- 
sprachspartner sich gegenseitig identifizieren, so dass eine 
Spracherkennung hierzu entsprechende Vokabel- bzw. 
Gratnmatikerkennungsmodi einsetzt. Diese Informationen 
iiber den aktuellen Gesprachszustand, wie auch immer diese 
gewonnen werden, konnten ebenfalls zusammen mit den - 
Sprachdaten gespeichert werden. 

[0049] In ganz besonders bevorzugter Weise ist vorgese- 
hen, dass das Spracherkennungssystem und/oder der 
Spracherkeimungsvorgang mit einem Datenbanksystem, 
wie z. B. R/3® (SAP Aktiengesellschaft, D-69190 WaU- 
dorf)und/oder Expertensystem gekoppelt wird. Hierdurch 
konnen die Ergebnisse oder die Teilergebnisse des Spracher- 
kennungsvorgangs direkt in ein Datenbank und/oder Exper- 
tensystem eingegeben werden. Weiterhin konnen Informa- 
tionen aus dem Datenbank- und/oder Expertensystem zum 
Spracherkennungsvorgang hinzugezogen werden, beispiels- 
weise zur Vokabulardynamisierung. So konnen durch diese 
Kopplung weiteigehende Informationen extrahiert werden, 
die - wie bereits angedeutet - zur Spracherkennung genutzt 
werden. 

[0050] Die aus dem Datenbank- und/oder Expertensystem 

gewonnen Informationen konnen zur Steuentng des dyna- 
mischen Erkcnnungsvorgangs der Spracherkennung einge- 
setzt werden. So konnten beispielsweise Informationen, die 
in einem Datenbank- bzw. R/3®-Syslem Uber einen Ge- 
sprachspartner abgelegt sind, den Erkennungsvorgang der 
von diesem Gesprachspartner vorUegenden Sprachdaten da- 
hingehend zur Steuerung eingesetzt werden, dass zur 
Spracherkennung Vokabular zugrundegelegt wild, das be- 
reits in vorangegangenen Gesprachen mit diesem Ge- 
sprachspartner eingeselzl wurde. Hierbei konnen auch die 
wahrend dem aktuellen Gesprach erkannten Sprachdaten in 
das Datenbank- bzw. R/3®-System oder in eine entspre- 
chende Datenbank abgespeichert werden und - schon wah- 
rend des Gesprachs - den Vokabelschatz dieses Gesprachs- 
partners bei der Spracherkermung dynamisch erweitem. 
[0051] Nun ist grundsatzlich vorgesehen, die insbeson- 
dere aus der Sprachdatenerkennung gewonnenen Informa- 
tionen zu speichem. In ganz besonderes bevorzugter Weise 
ist zusatzlich oder altemativ hierzu vorgesehen, Informatio- 
nen in Form cincr grafischcn und/oder orthographischcn Rc- 
prasentation zur Verfiigung zu stellen. Dies kann fiir Infor- 
mationen vorgesehen sein, die gegebenenfalls zeitversetzt 
von einem mit cincm Gcsprachsannahmcsystcm aufgc- 
zeichneten Gesprach stammen. Dies konnte allerdings auch 
fur Informationen einer Spracherkennung von Gesprachsda- 
tcn zutrcffcn, die von cincm Gesprach zwischen zwci oder 
mehreren Gesprachspartnem stammen. Hierbei konnen ent- 
weder alle Infoniiationen des Gesprachs, d. h. so/.usagen je- 
dcs Wort, oder lediglich cxtrahicrtc und/oder sclckticrtc In- 
fomiationen hieraus, die fiir die jeweilige Anwendung des 
erflndungsgemaBen Verfahrens gerade zweckmaBig sind, 
angczcigt werden. Das zur Verfiigung Stcllcn der Informa- 
tionen konnte beispielsweise auf einer Ausgabeeinheit eines 
Computers, z. B. eines Monitors, aufeinem Bildschinri oder 
Fcmschcr erfolgen. Auch die Ausgabe der Informationen 
auf einem Handy-Display konnte vorgesehen sein. 
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[0052] Ganz allgemein ist vorgesehen, die Infomiationen 
zeitversetzt zur Verfiigung zu stelien. Dies wird insbeson- 
dere bei Gesprachsinformationen der Fall sein, die von ei- 
nem Gesprachsannahmesystem stammen, wo also eine zeit- 
gleiche Spracherkennung bzw. Informationsauswertung 5 
nictit erforderlicti ist. Altemativ hierzu ist in bevorzugter 
Weise vorgeselien, die Informationen nahezu zeitgleich, 
d. ti. "Online" zu erkennen und/oder dem Gespraclispartner 
zur Verfiigung zu stelien. Dies ist insbesondere dann der 
Fall, wenn Sprachdaten eines Gesprachs zwischen zwei Ge- 10 
sprachspartnern eritannt bzw. analysiert werden. Hierbei 
konnen die Informationen entweder einem oder beiden bzw. 
alien Gesprachspartnern zur Verfiigung gestellt werden, je 
nach dem welches Ziel die Anwendung des erfindungsge- 
maBen Verfalirens verfolgt. Das Online zur Verfiigung Stel- 15 
len der Informationen konnte allerdings auch in Verbindung 
mit einem Gespraclisannaliinesystern erfolgen, beispiels- 
weise wenn bei einer Rundfunk- oder Femsehsendung eine 
"Live-Umfrage" nach nur kurzer Zeit ausgewertet sein 
muss. 20 
[0053] Nun konnte der Gesprachspartner, dem die Infor- 
mationen wahrend des Gesprachs zur Verfiigung gestellt 
werden (der oder jede zweite Gesprachspartner), die Sprach- 
erkennung zumindest teilweise vorgeben, steuern und/oder 
lenken. Ilierzu konnten auf einer grafischen Denutzerober- 25 
flache eines entspreclienden Computers bzw. Steuerrechncrs 
entsprechende Symbole vorgesehen sein, die unlerschiedU- 
che Wirkungen auf die Spracherkennung haben und einfach 
und schnell vom dem Gesprachspartner betatigt werden 
konnen. Insbesondere konnte hierbei vorgesehen sein, dass 30 
der Gesprachspartner entsprechende Symbole betatigen 
kann, die mehrere, vom Spracherkennungssystem kom- 
mende Ergebnissc als richtig oder falsch klassiflzieren bzw. 
auswahlen konnen. Lctztcndlich kann so der eine Ge- 
sprachspartner hierdurch das lirkcnnungssystem auf die 35 
Stimiiie des anderen Gesprachsparlners schulen, so dass bei 
einem langer andauernden Gesprach das Spracherkennungs- 
system zumindest weitgehend die Sprachdaten des anderen 
Gesprachspartners erkennen kann. Wdterhin konnen ent- 
sprechende Symbole vorgesehen sein, die eine Annahme 40 
oder Ablehnung von abzuspeichemden Informationen als 
Ergebnis der Spracherkennung zurFolge haben. 
[0054] Weiterhin konnte beispielsweise vorgesehen sein, 
dass der Gesprachspartner das Vokabular fiir die Spraclier- 
kennung, oder die Reihenfolge der Anwendung der unter- 45 
schiedlichen Spracherkennungsmethoden vorgibt. 
[0055] Insbesondere bei einer Kopplung des Spracherken- 
nungssysteiris iriit einem Datenbank- und/oder Rxperlensy- 
stem konnte vorgesehen sein, dass fiir jeden Gesprachspart- 
ner ein Benutzerprofil angelegt oder schon abgespeichert ist. 50 
Zur Spracherkennung eines weiteren Gesprachs mit diesem 
Gesprachspartner konnte dieses Benutzerprofil automatisch 
geladen werden. Dariiber hinaus ist auch denkbar, dass der 
Gesprachspartner, deiri dielnfonnationen zur Verfiigung ge- 
stcUt werden, dieses Benutzerprofil ladt. In einem Bcnutzcr- 55 
profil kann insbesondere der Erkennungsmodus der Sprach- 
erkennung, ein spezieller Vokabularschatz oder ahnliches 
abgespeichert sein. 

[0056] In besonders bevorzugter Weise werden neben den 
exlrahierten Sprachinfonnalionen noch Inforrnalionen des 60 
Datenbank- und/oder Expertcnsystcms extrahiort zur Verfii- 
gung gestellt. Diese Vorgehensweise konnte beispielsweise 
im Einsatz eines (]ali-(^enters angewandt werden. Hierbei 
ist der das Gesprach cntgcgcnnchmcndc Gesprachspartner, 
im folgenden Agent genannt, derjenige, dem die extrahier- 65 
len Infonnalionen zur Verfiigung gestellt werden. So kon- 
nen dem Agent neben den erkannten und cxtrahierten Infor- 
mationen aus dem Spracherkennungsprozess auch weiterge- 
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hende Informationen, beispielsweise iiber den Anrufer, des- 
sen Tatigkeitsfeld u. s. w. ebenfalls zur Vertugung gestellt 
werden, so dass in besonders vorteilhafter Weise der Agent 
noch vorBeendigung des Gespruchs mehr Informationen er- 
halt, als eigenflich in dem Gesprach ausgetauscht wurden. 
Hierdurch kann der Agent auch andere Themengebiete an- 
sprechen, die nicht vom Anrufer aus angesprochen sind, wo- 
durch dem Anrufer in besonders vorteilhafter Weise das Ge- 
fiihl vermittelt wird, dass der Agent des Call-Centers den 
Anrufer nebst seinem Tatigkeitsgebiet personlich kennt. 
Durch diese Vorgehensweise kann auch in vorteilhafter 
Weise eine Beratung des Anrufers intensiver und/oder eflfek- 
tiver durchgefiiiirt werden. 

[0057] Zur einfachen Bedienung durch einen Gesprachs- 
partner konnten die entsprechenden Ausgabemodule fiir die 
exlrahierten Informationen und/oder die Symbole fiir die 
Steuerung bzw. Lenkung der Spracherkennung in eine Ge- 
samtoberflache und/oder in ein Gesamtprogramm eines 
Computerprogramms eingebunden sein. Hierdurch hat bei- 
spielsweise ein Agent eines Call-Centers lediglich eine zen- 
trale Anwendung bzw. ein zentrales Programm zu bedienen, 
so dass letztendUch auch hierdurch die Eflfizienz des Ge- 
samtsystems erhoht wird. 

[0058] Das eriindungsgemaBe Verfahren kiinntc in welter 
vorteilhafter Weise zum Schulen von Agenten eines Call- 
Centers eingesetzt werden. So konnte beispielsweise gerade 
aufgrund der Informationen, die tiber einen Anrufer in ei- 
nem Datenbank- und/oder Expertensystem gespeichert sind, 
die Gesprachsstrategie des Agenten geschult werden. Ein 
Ziel hierbei konnte beispielsweise sein, dass der Agent eines 
Call-Centers einerseits lemt ein erfolgreiches Verkaufsge- 
sprach mit einem Anrufer zu absolvieren und andererseits 
wichtige Daien fiber den Anrufer - entweder bereits gespei- 
chcrte oder in dem Gesprach gewonnene Informationen - 
dem Gcsanilsystem zuzuftihren oder in dem Ciesamtsystem 
abzuspeichern, so dass auch die Schnelligkeil eines Agenten 
eines Call-Centers in der GesprSchsabwicklung geschult 
werden kann. 

[0059] In ganz besonders vorteilhafter Weise wird das 
Spracherkennungssystem auf die Stimme eines Gesprachs- 
partners trainiert. Im Fall eines Call-Centers ist dies der 

Agenl des Call-Cenlers, der praklisch bei jedem Gesprach 
mit dem Spracherkennungssystem interagiert. Somit konnen 
zumindest die Sprachdaten des einen Gesprachspartners 
bzw. des Agents mit einer optimieiten Erkennungsrate er- 
kannt und/oder analysiert werden. Die Erkennungsrate des 
Spracherkermungssystems kann in welter vorteilhafter 
Weise auch dadurch gesteigert werden, dass der eine Ge- 
sprachspartner bzw. der Agent des Call-Centers einzelne, 
fiir den Gesprachspartner bzw. Agent wichtige Worte wie- 
derholt. Somit kann das Spracherkennungssystem diese 
nunmehr vom Gesprachspartner, auf den das Spracherken- 
nungssystem trainiert ist, mit einer hohen Erkennungsrate 
richtig erkanntbzw. analysiert. werden. 
[0060] Es gibt nun vcrschicdcnc MogHchkcitcn, die Lchrc 
der vorUegenden Erfindung in vorteilhafter Weise auszuge- 
stalten und weiterzubilden. Dazu ist einerseits auf die dem 
Patcntanspruch 1 nachgcordnctcn Patentanspriicho und an- 
dererseits auf die nachfolgende Erlauterung der bevorzugten 
Ausfuhrungsbeispiele der Erfindung anhand der Zeichnung 
zu vcrwciscn. In Verbindung mit der Erlauterung dor bevor- 
zugten Ausfuhrungsbeispiele der Erfindung anhand der 
Zeichnung werden auch im AUgemeinen bevorzugte Ausge- 
staltungcn und Wcitcrbildungcn der Lchrc crlautcrt. In der 
Zeichnimg zeigen 

[0061] Fig. 1 eine schematische Darstellung einer ersten 
Konfiguration zur Durchflihrung des crfindungsgcmaBcn 
Verfahrens, 
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[0062] Fig. 2 eine schematische Darstellung einer zweiten 
Konfiguration zur Durchfiihrang des erfindungsgemaBen 
Verfahrens, 

[0063] Fig. 3 eine schematische Darstellung eines Aus- 
fiihrungsbeispiels eines Spracherkennungssystems und 5 
[0064] Fig. 4 eine schematische Darstellung einer weite- 
ren Konfiguration zur Durchfflhrung des erfindungsgema- 
Ben Verfahrens. 

[0065] Fig. 1 zeigt schematisch einen ersten Gesprachs- 
partner 1 und einen zweiten Gesprachspartner 2, wobei die 10 
beiden Gesprachspartner 1, 2 ein Telefongesprach fflhren. 
Die Telefonverbindung ist mit dem Bezugszeichen 3 ange- 
deutet, Sprachdaten des Gesprachs wird iiber die Verbin- 
dung 4 einem Spracherkennungssystem 5 zugefuhrt. 
[0066] ErflndungsgemaB wird zumindest eine Unter- 15 
menge der Sprachdaten erkannt und extrahiert. Das Ergeb- 
nis der Spracherkennung wird dem zweiten Gesprachspart- 
ner 2 fiber Verbindung 6 zur Verfugung gestellt. Die Verbin- 
dung 6 kann beispielsweise auch eine Sichtverbindung zu 
einem Bildschirm sdn. 20 
[0067] In Fig. 2 ist eine erfindungsgemaBe Konfiguration 
gezeigt, bei der ein Gesprachspartner 1 mit einem Ge- 
sprachsannahmesysteme 7 uber eine Telefonverbindung 3 
telefoniert, bzw. telefoniert hat, und das Gesprachsannah- 
mesystem 7 das Gesprach ein einen zweiten Gesprachspart- 25 
ner 2 weitergefeitet hat. Das Gesprachsannaiimesystem 7 ist 
hierbei als ein automalisches Interactive Voice Response 
System ausgefiihrt. Die Spracherkennung 5 sowie die Spei- 
cherung einerseits der Sprachdaten und andererseits der 
hieraus extrahierten Informationen ist ebenfaUs in dem Ge- 30 
sprachsannahmesystem? vorgesehen. Das Gesprachsannah- 
mesystem 7 ist ein Computer. 

[0068] Bei dem Spracherkennungssystem 5 kann cs sich 
auch utii riichrcrc ('omputer handeln, wie in Fig. 3 schema- 
tisch gc/.cigl wird. tin Konkreten handelt es sich um ein 35 
Computer-Netzwerksyslem, aiif dem die Spracherkennung 
parallel ausgefiihrt wird. Die Sprachdaten werden iiber die 
Verbindung 4 dem Spracherkennungssystem 5 zugefuhrt. 
Die Sprachdaten werden von dem Eingangs-ZAusgangsser- 
ver 8 iiber das Netzwerk weiterverteilt. 40 
[0069] So werden die Sprachdaten iiber Verbindung 9 ei- 
nem Dalenspeiclier 10 zugefuhrt. Weilerhin werden die 
Sprachdaten iiber Verbindung 11 dem Base form- Server 12 
sowic Li her Verbindung 13 den drei Recognition-Servem 14 
zugefiilirt. Der Baseform-Server 12 dient hierbei zur Bereit- 45 
stellung der erforderUchen phonetischen Ausspraclietran- 
skriptionen. Uber Verbindung 15 ist ebenfalls ein Sprachda- 
lenaustausch zwischen Basefonn-Server 12 und den drei 
Recognition-Servem 14 vorgesehen. 

[0070] Die Spracherkennung auf den Recognition-Ser- 50 
vem 14 wird liierbei parallel ausgefiihrt, und zwar fiihrt ei- 
ner der droi Recognition-Server 14 cine Diktatcrkcnnung, 
der andere Recognition-Server 14 eine Grammatikerken- 
nung und schlieBlich der dritte Recognition-Server 14 eine 
Kcyword-Spotting-Erkcnnung aus. Dcmgcmass werden die 55 
drei unterschiedlichen Methoden der Spracherkennung 
quasi parallel eingeset/.t, die unterschiedlichen Spracher- 
kcnnungsmcthodcn bcnotigcn gcringfiigig untcrschicdlichc 
Rechenzeiten, so dass keine zeitgleiche ParalleUsierung im 
slrengen Sinn vorliegl.. 60 
[0071] Falls die Spracherkennung wicdcrholt ausgcfuhrt 
wird, werden die auf dem Datenspeicher 10 gespeicherten 
Original-Sprachdaten des (lesprachs von dem Eingangs/ 
Ausgangsscrvcr 8 angcfordcrt und cmcut auf den Baseform- 
Server 12 und die Recognition-Server 14 verteilt. 65 
[0072] Tn vorleilhaRer Weise ist das Spracherkennungssy- 
stem 5 sowic der Sprachcrkcnnungsvorgang mit einem Da- 
tenbanksystem 16 iiber die Verbindungen 17, 18 gekoppelt. 
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Durch diese Kopplung werden weitergehende Informatio- 
nen extrahiert. So werden die aus dem Datenbanksystem 16 
gespeicherten und abgerufenen Informationen liber den Ge- 
sprachspartner 1 dazu verwendet, den Spracherkennungs- 
vorgang zu unterstUtzen. Hierzu wird dem Recognition-Ser- 
ver 14, auf dem die Diktaterkennung lauft, ein Vokabular 
zur Verfiigung gestellt, das auf dem Datenbanksystem 16 
gespeichert ist und im Rahmen eines vorherigen Gesprachs 
mit dem Gesprachspartner 1 in Verbindung gebracht wurde. 
[0073] In Fig. 4 ist schematisch gezeigt, dass dem Ge- 
sprachspartner 2 die Informationen des Spracherkennungs- 
systems 5 nebst den Informationen des Datenbanksystems 
in Form einer graphischen und orthographischen Reprasen- 
tation auf dem Monitor 19 des Computers 20 zur Verfiigung 
gestellt werden. Die Reprasentation der Informationen er- 
folgt hierbei wahrend des Gesprachs. 
[0074] Der Gesprachspartner 2 kann ebenfalls iiber den 
Computer 20 bei dem Spracherkennungsvorgang eingreifen 
und diesen derart steuem, dass ein optimales Spracherken- 
nungsergebnis erzielt werden kann. Sowohl die graphische 
und orthographische Reprasentation der extrahierten 
Sprachinformationen als auch die Steuerung des Spracher- 
kennungsvorgangs erfolgt mit einer Benutzerschnittstelle, 
die auf dem Computer 20 nebst Monitor 19 dem Gesprachs- 
partner 2 zur Verfugung steht. Ilierdurch kann der als Agent 
eingesetzte Gesprachspartner 2 in einem Call-Center eine 
optimale Anruferberatung durchftihren. 
[0075] AbschlieBend sei ganz besonders darauf hingewie- 
sen, dass die voranstehend erorterten Ausfiihrungsbeispiele 
IfidigUch zur Beschreibung der beanspruchten Lehre dienen, 
diese jedoch nicht auf die Ausfiihrungsbeispiele einschran- 
ken. 

Patentansprtiche 

1. Verfahren zur Behandlung von Sprachdaten aus ei- 
nem Gesprach zwischen einem ersten menschlichen 
und einem oder mehreren zweiten menschlichen Ge- 
sprachspartnem und/oder einem Gesprachsannahme- 
system oder zwischen einem ersten menschlichen und 
einem oder mehreren zweiten menschlichen Ge- 
sprachsparlnem. bei dem aus dem Gesprach Sprachda- 
ten erzeugt werden. dadurcli gekennzeichnet, 

- und dass die Sprache des ersten Gesprachspart- 
ners automatisch erkannt wird 

- dass die Sprachdaten ganz oder teilweise mit- 
tels eines automatischen Spracherkennungssy- 
stems analysiert und in Text umgewandelt wird. 

2. Verfaiiren nach Anspruch 1, wobei das Gesprach 
automatisch an eine fiir der erkannte Sprache vorgese- 
hene Annahmestelle weitergeleitet wird. 

3. Verfahren nach Anspruch 1 oder 2, wobei die 
Spracherkennung wahrend eines Gesprachs im Hinter- 
grund durchgerdhrl wird. 

4. Verfahren nach Anspruch 2 oder 3, wobei der crstc 
Gesprachspartner wahrend der Weiterleitung oder bei 
Nichtverfugbarkeit von Annahmestellen mit Hilfe von 

Sprachprompts automatisch informicrt wird. 

5. Verfahren nach einem oder mehreren der Anspruche 
1 bis 4, wobei die Sprachdaten ganz oder l.eilweise ei- 
ner Frcqucnzanalysc untcrzogcn werden. 

6. Verfahren nach Anspruch 5, wobei der Text und 
eine graphische Darstellung von Ergebnissen der Fre- 
qucnzanalysc auf einem Anzcigcgerat ausgcgcbcn 
wird. 

7. Verfahren nach Anspruch 6, wobei die Ausgabe des 
Tcxtcs und der Ergcbnissc der Frcqucnzanalysc onHnc 
erfolgt. 
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8. Verfahren nach einem oder mehreren der Anspruche 
1 bis 7, wobei einzelne Worter des Textes einzelnen 
zeitlichen Abschnitten der Frequenzanalyse zugeord- 
net werden. 

9. Verfahren nach Anspruch 8, wobei mindestens die 5 

einzelnen Worter und die zugeordneten Abschnitte der 
Frequenzanalyse gespeichert werden, 

10. Verfahren nach einem oder mehreren der Anspru- 
che 1 bis 9, wobei das Frequenzspektrum das, zu einem 
vorwahlbaren Wort gehort, mit bereits gespeicherten 10 
Frequenzspektren des gleichen Wortes aus einem ande- 
ren Gesprach verghchen wird, und dass auf diese Weise 
die Identitat eines Gesprachspartners ermittelt wird. 

11. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 10, 15 
wobei der erhaltene Text automatisch auf SchLiissel- 
worter untersucht wird und 

wobei anhand der erkannten Schliisselworter dem Ge- 
sprach automatisch eine Klassifikation zugeordnet 
wird. 20 

12. Verfahren nach Anspruch 11, wobei die Schlussel- 
worter und Klassifikationen in einer oder mehreren Ta- 
bellen abgespeichert und einander zugeordnet sind. 

13. Verfahren nach Anspruch 11 oder 12, wobei die 
Klassifikation auf den Zweck des Anrufs gerichtet ist. 25 

14. Verfahren nach einem oder mehreren der Ansprii- 
che 11 bis 13, wobei die Klassifikation auf die Stim- 
mung des ersten Gesprachspartners gerichtet ist. 

15. Verfahren nach einem oder mehreren der Ansprii- 
che 11 bis 14, wobei die ermittelte Klassifikation dem 30 
oder jeden zweiten Gesprachspartner online oder zeit- 
versetzt zur Verfugung gestellt wird. 

16. Verfahren nach einem oder mehreren der AnsprO- 
che 1 bis 15, wobei das Gesprach ein Telefongesprach 

ist und der zweite Gesprachspartner vom ersten ange- 35 
rufen wurde. 

17. Verfahren nach Anspruch 16, wobei der Telefon- 
anruf von einem automatischen Gesprtchsannahmesy- 
stem (7) entgegengenommen wurde, und das Ge- 
sprachsannahmesystem (7) den oder jeden zweiten 40 
menschhchen Gesprachspartner (2) hinzuschaltet oder 
das Gesprach an den oder jeden zweiten menschUchen 
Gesprachspartner (2) weiterleitet. 

18. Verfahren nach einem oder mehreren der Anspru- 
che 1 bis 15, wobei ein Gesprachsannahmesystein (7) 45 
automatisch eine Gesprachsverbindung mit dem crsicn 
Gesprachspartner (1) hersteUt, vorzugsweise durch ei- 
nen Telefonanruf. 

19. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 18, wobei der zeitliche Verlauf des Gesprachs 50 
aufgezeichnet wird und der erkannte Text dem zeitU- 
chcn Verlauf zugeordnet und gespeichert wird. 

20. Verfahren nach Anspruch 19, wobei eine graphi- 
sche Darstellung der /rilHchen Abfolge des erkannten 
Text auf einem Anzcigcgcrat ausgcgcbcn wird. 55 

21. Verfahren nach Anspruch 19 oder 20, wobei die 
Analyse und/oder die graphische Darstellung online 
durchgcfiihrt wird. 

22. Verfahren nach einem oder mehreren der Anspru- 
che 19 bis 21, wobei einzelne Wiirler des erkannten 60 
Tcxtcs einzelnen Abschnitten des zeitlichen Vcrlaufs 
zugeordnet werden. 

23. Verfahren nach Anspruch 22, wobei die einzelnen 
Worter mit den zugeordneten Abschnitten gespeichert 
werden. 65 

24. Verfahren nach einem cxler mehreren der Anspru- 
che 1 bis 23, wobei cine Frequenzanalyse der Stimmon 
des oder jeden Gesprachspartners durchgefiihrt wird. 



524 Al 

16 

25. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 24, wobei der erkannte Text dem jeweibgen 
Gesprachspartner zugeordnet wird. 

26. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 25, wobei dem erkannten Text Schliisselwor- 
ter aus einer voreinrichtbaren Tabelle zugeordnet wer- 
den. 

27. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 26, wobei das Gesprachsannahmesystem (7) 
als ein Interactive Voice Response System (IVRS), vor- 
zugsweise als ein automatisches IVRS, arbeitet. 

28. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 27, wobei der erste Gesprachspartner (1) mit 
vorgegebenen Gesprachsstrukturen konfrontiert wird. 

29. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 28, wobei als Gesprachsannahmesystem (7) 
und/oder als Spracherkennungssystem (5) mindestens 
ein Computer eingesetzt wird. 

30. Verfahren nach Anspruch 29, wobei die Spracher- 
kennung auf einem oder auf mehreren Computem (12, 
14) ausgefiihrt wird, vorzugsweise parallel. 

31. Verfahren nach Anspruch 29 oder 30, wobei die 
Spracherkennung in Form von mehreren Prozessen auf 
einem Computer oder verteilt auf mehrere Prozessoren 
eines Computers parallel ausgefiihrt wird, 

32. Verfahren nach einem odor mehreren der Ansprii- 
che 29 bis 31, wobei die Spracherkennung in einem 
Computer-Netzwerksystem parallel ausgefiihrt wird. 

33. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 32, wobei die Sprachdaten des Gesprachs zu- 
mindest weitgehend unverandert gespeichert werden. 

34. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 33, wobei Informationen iiber den akiuellen 
Gesprachszustand bei der Spracherkennung bcriick- 
sichtigt werden, 

35. Verfahren nach einem otler mehreren der Anspru- 
che 1 bis 34, wobei die Spracherkennung individuell 
auf einen Analyseauftrag ausgerichtet wird. 

36. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 35, wobei zur Spracherkennung Methoden 
der Diktat-, Grammatik-, Einzelworterkennung und/ 
oder des Keyword-Spoiling eingeselzl werden. 

37. Verfahren nach Anspruch 36, wobei die unter- 
schiedlichen Methoden der Spracherkennung parallel 
eingesetzt werden. 

38. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 37, wobei die Spracherkennung wiederholt 
au.sgepLihrt wird. 

39. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 38, wobei eine dynamische Anpassung der 
Spracherkennung erfolgt, 

40. Verfahren nach Anspruch 39, wobei das Vokabular 
zur Spracherkennung variiert und/oder angepasst wird. 

41 . Verfahren nach Anspruch 39 oder 40, wobei zur 
dynamischcn Anpassung der Spracherkennung in ei- 
nem ersten Erkennungsschritt die Sprachdaten klassifi- 
ziert werden, vorzugsweise mit Methoden des Key- 
word-Spotting. 

42. Verfahren nach Anspruch 41, wobei in einem wei- 
leren Erkennungsschritt die Sprachdaten unler Hin/.u- 
zichung von spczicUcm Vokabular cmcut untersucht 
werden. 

43. Verfahren nach Anspruch 42, wobei iterativ wei- 
tcrc Erkcnnungsschritte durchgefiihrt werden, die vor- 
zugsweise iiber Erkennungswahrscheinlichkeiten ge- 
steuerl werden. 

44. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 43, wobei das Spracherkennungssystem und/ 
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oder der Spracherkennungsvorgang mit einem Daten- 
banksystem (16) und/oder Expertensystem gekoppelt 
wird. 

45. Verfahren nach Anspruch 44, wobei durch die 
Kopplung weitergehende Informationen extrahiert 5 

werden. 

46. Verfahren nach Anspruch 45, wobei die aus dem 
Datenbanksystem (16) und/oder Expertensystem ge- 
wonnenen weitergehenden Informationen, beispiels- 
weise iiber den ersten Gesprachspartner (1), den 10 
Spracherkennungsvorgang dynamisch steuem. 

47. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 46, wobei das Ergebnis der Analyse und/oder 
die weitergehenden Informationen in Form einer gra- 
phischen und/oder orthographischen Reprasentation 15 
zur Verfiigung gestellt werden. 

48. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 47, wobei das Ergebnis der Analyse und/oder 
die weitergehenden Informationen zeitversetzt zur Ver- 
fiigung gestellt werden. 20 

49. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 47, wobei die Analyse und/oder die Extrak- 
tion der weitergehenden Informationen nahezu zeit- 
gleich (online) diirchgeftihrt und/oder dem zweiten Ge- 
sprachspartner (2) zur Verfiigung gestellt werden. 25 

50. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 49, wobei die Informationen wahrend des Ge- 
sprachs dem zweiten Gesprachspartner (2) zur Verfii- 
gung gestellt werden. 

51. Verfahren nach einem oder mehreren der Ansprii- 30 
che 1 bis 50, wobei derzweite Gesprachspartner (2) die 
Spracherkennung zumindest teilweise vorgibt, steuert 

und/oder Icnkl. 

52. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 51, wobei der zweite Gesprachspartner (2) Er- 35 
kennungsinodi der Sprachanalyse (5) in Fonii von Be- 
nutzerprofilen laden kann oder dass diese automatisch 
geladen werden. 

53. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 52, wobei neben dem Ergebnis der Sprach- 40 
analyse noch Informationen des Datenbanksystems 
(16) Lind/oder ExperlGnsyslems extrahiert und/oder zur 
Verfiigung gestellt werden. 

54. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 53, wobei das Ergebnis der Analyse des Ge- 45 
sprachs als Text gespeichert wird. 

55. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 53, gekennzeichnet durch den Rinsat/. in ei- 
nem Call-Center. 

56. Verfahren nach einem oder mehreren der Ansprii- 50 

che 1 bis 55, gekennzeichnet durch die Einbindung in 
cine Gcsamtobcrflachc und/oder in cin Gesamtpro- 
gramm. 

57. Verfahren nach einem txler mehreren der Anspru- 
chc 1 bis 56, gekennzeichnet durch den Einsatz zum 55 
Schulen von Agenten eines Call-Centers. 

58. Verfahren nach einem oder mehreren der Ansprii- 

chc 1 bis 57, wobei das Sprachcrkcnnungssystcm (5) 
auf die Stimme des ersten (1) oder des oder jeden zwei- 
len Gespriichsparlners (2) Irainierl. wird, vor/.ugsweise 60 
auf den Agent cincs Call-Centers. 

59. Verfahren nach Anspruch 58, wobei die Erken- 
nungsrate des Spracherkennungssystems (5) dadurch 
gcstcigcrt wird, dass der oder jcdc zwcitc Gesprachs- 
partner (2) - vorzugsweise der Agent - einzelne, vom 65 
ersten Gesprachspartner (1) gesprochene Worte wie- 
dcrholt, so dass das Sprachcrkcnnungssystcm (5) die 
Sprachdaten der trainierten Stimme analysieren kann. 



60. System zur Durchfiihrung eines Verfahrens nach 
einem oder mehreren der vorstehenden Anspriiche, 
aufweisend 

- mindestens eine elektronische Vorrichtung zur 
Erkennung imd Extrahierung von Sprachdaten 
(Spracherkennungssystem, 5), die mit einer oder 
mehreren Vorrichtungen zur Erfassung von 
Sprachdaten (Gesprachsannahmesystem, 7) ver- 
bindbar ist, und 

- ein oder mehrere Mittel zur Darstellung und/ 
oder Speicherung von erkannten und/oder extra- 
hierten Sprachdaten, wobei das oder jedes Mittel 
zur DarsteUung (19) und/oder Speicherung direkt 
oder indirekt mit der Erkennungs- und Extrahie- 
rungsvorrichtung verbunden ist. 

61. System nach Anspruch 60, wobei das Spracher- 
kennungssystem mit mindestens einem Gesprachsan- 
nahmesystemen verbunden ist. 

62. System nach Anspruch 61, wobei das Spracher- 
kennungssystem mit zwei Gesprachsannahmesyste- 
men verbunden ist. 

63. System nach einem oder mehreren der Anspriiche 
60 bis 62, aufeisend einen Frequenzanalysator. 

64. System nach einem oder mehreren der Anspriiche 
60 bis 63, wobei mindestens ein Gesprachsannahmesy- 
stem ein stationares oder mobiles Telefon umfasst. 

65. System nach einem oder mehreren der Anspriiche 
60 bis 62, wobei mindestens ein Gesprachsannahmesy- 
stem ein IVRS, vorzugsweise ein automatisches IVRS 
ist. 

66. System nach einem oder mehreren der Anspriiche 
60 bis 65, wobei das Spracherkennungssystem einen 
oder mehrere Computer umfasst. 

67. System nach einem oder mclireren der Anspriiche 
60 bis 65, wobei das Ciesprachsannahmesystem einen 
oder mehrere Computer umfassl. 

68. System nach Anspruch 66, wobei die mehreren 
Computer in Form eines Netzwerkes verbunden sind. 

69. System nach Anspruch 68, wobei das Netzwerk 
eine CHent/Server-Shiiktur aufweist. 

70. Computerprogramm mit Programmcode-Mitteln, 
um alle Schrille von einem beliebigen Verfahren ge- 
maB einer beliebigen Kombination der Anspriiche 1 bis 
59 auszufuhren, wenn das Programm auf einem Com- 
puter ausgefiihrt wird. 

71. Computerprogrammprodukt mit Programmcode- 
Mitteln, die auf einem computerlesbaren Datentrager 
gespeichert sind, und geeignet sind, ein Verfahren ge- 
maB einer beliebigen Kombination der Anspriiche 1 bis 
59 auszufiihren, wenn sie auf einem Computer ausge- 
fiihn werden. 

72. Computer mit cincm fliichtigcn und/oder nicht- 
fliichtigen Speicher, in dem ein Computerprogramm 
nach Anspruch 70 gespeichert ist. 
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